智能论文笔记

Optimal precision for GANs

Thibaut Issenhuth , Ugo Tanielian , Jérémie Mary , David Picard

分类：机器学习 | 人工智能 | (统计)机器学习

2022-07-21

在学习断开分布时，已知生成对抗网络（GAN）面临模型错误指定。实际上，从单峰潜伏分布到断开连接的连续映射是不可能的，因此甘斯一定会在目标分布支持之外生成样品。这提出了一个基本问题：最小化这些领域的衡量标准的潜在空间分区是什么？基于几何测量理论的最新结果，我们证明，最佳甘恩必须将其潜在空间构造为“简单群集” - 一个voronoi分区，其中细胞是凸锥 - 当潜在空间的尺寸大于大于的数量时模式。在此配置中，每个Voronoi单元格映射到数据的不同模式。我们在gan学习断开的歧管的最佳精度上得出了上限和下限。有趣的是，这两个界限具有相同的减小顺序：$ \ sqrt {\ log m} $，$ m $是模式的数量。最后，我们执行了几项实验，以表现出潜在空间的几何形状，并在实验上表明gan具有与理论相似的几何形状。

translated by 谷歌翻译

EdiBERT, a generative model for image editing

Thibaut Issenhuth , Ugo Tanielian , Jérémie Mary , David Picard

分类：计算机视觉 | 机器学习

2021-11-30

计算机愿景的进步正在推动IM-Age操作的限制，具有在各种任务上采样详细图像的生成模型。但是，通常为每个特定任务开发和培训专门的模型，即使许多图像编辑任务共享相似之处。在去噪，染色或图像合成中，一个始终旨在从低质量的那样产生现实形象。在本文中，我们旨在迈出朝着图像编辑的统一方法。为此，我们提出Edibert，这是一个在由矢量量化的自动编码器构建的离散潜在空间中培训的双向变压器。我们认为这种双向模型适用于图像操纵，因为可以将任何补丁根据整个图像重新采样。使用这种独特和简单的培训目标，我们表明由此产生的模型与各种任务的最先进的性能相匹配：图像去噪，图像完成和图像组成。

translated by 谷歌翻译

Out-Of-Distribution Detection Is Not All You Need

Joris Guérin , Kevin Delmas , Raul Sena Ferreira , Jérémie Guiochet

分类：机器学习 | 人工智能 | 计算机视觉

2022-11-29

The usage of deep neural networks in safety-critical systems is limited by our ability to guarantee their correct behavior. Runtime monitors are components aiming to identify unsafe predictions and discard them before they can lead to catastrophic consequences. Several recent works on runtime monitoring have focused on out-of-distribution (OOD) detection, i.e., identifying inputs that are different from the training data. In this work, we argue that OOD detection is not a well-suited framework to design efficient runtime monitors and that it is more relevant to evaluate monitors based on their ability to discard incorrect predictions. We call this setting out-ofmodel-scope detection and discuss the conceptual differences with OOD. We also conduct extensive experiments on popular datasets from the literature to show that studying monitors in the OOD setting can be misleading: 1. very good OOD results can give a false impression of safety, 2. comparison under the OOD setting does not allow identifying the best monitor to detect errors. Finally, we also show that removing erroneous training data samples helps to train better monitors.

translated by 谷歌翻译

Using Set Covering to Generate Databases for Holistic Steganalysis

Rony Abecidan , Vincent Itier , Jérémie Boulanger , Patrick Bas , Tomáš Pevný

分类：计算机视觉

2022-11-07

Within an operational framework, covers used by a steganographer are likely to come from different sensors and different processing pipelines than the ones used by researchers for training their steganalysis models. Thus, a performance gap is unavoidable when it comes to out-of-distributions covers, an extremely frequent scenario called Cover Source Mismatch (CSM). Here, we explore a grid of processing pipelines to study the origins of CSM, to better understand it, and to better tackle it. A set-covering greedy algorithm is used to select representative pipelines minimizing the maximum regret between the representative and the pipelines within the set. Our main contribution is a methodology for generating relevant bases able to tackle operational CSM. Experimental validation highlights that, for a given number of training samples, our set covering selection is a better strategy than selecting random pipelines or using all the available pipelines. Our analysis also shows that parameters as denoising, sharpening, and downsampling are very important to foster diversity. Finally, different benchmarks for classical and wild databases show the good generalization property of the extracted databases. Additional resources are available at github.com/RonyAbecidan/HolisticSteganalysisWithSetCovering.

translated by 谷歌翻译

Developing a Knowledge Graph Framework for Pharmacokinetic Natural Product-Drug Interactions

Sanya B. Taneja , Tiffany J. Callahan , Mary F. Paine , Sandra L. Kane-Gill , Halil Kilicoglu , Marcin P. Joachimiak , Richard D. Boyce

分类：人工智能

2022-09-24

当植物天然产物与药物共容纳时，就会发生药代动力学天然产物 - 药物相互作用（NPDIS）。了解NPDI的机制是防止不良事件的关键。我们构建了一个知识图框架NP-KG，作为迈向药代动力学NPDIS的计算发现的一步。 NP-KG是一个具有生物医学本体论，链接数据和科学文献的全文，由表型知识翻译框架和语义关系提取系统，SEMREP和集成网络和动态推理组成的构建的科学文献的全文。通过路径搜索和元路径发现对药代动力学绿茶和kratom-prug相互作用的案例研究评估NP-KG，以确定与地面真实数据相比的一致性和矛盾信息。完全集成的NP-KG由745,512个节点和7,249,576个边缘组成。 NP-KG的评估导致了一致（绿茶的38.98％，kratom的50％），矛盾（绿茶的15.25％，21.43％，Kratom的21.43％），同等和矛盾的（15.25％）（21.43％，21.43％，21.43％ kratom）信息。几种声称的NPDI的潜在药代动力学机制，包括绿茶 - 茶氧化烯，绿茶 - 纳多洛尔，Kratom-Midazolam，Kratom-Quetiapine和Kratom-Venlafaxine相互作用，与已出版的文献一致。 NP-KG是第一个将生物医学本体论与专注于天然产品的科学文献的全文相结合的公斤。我们证明了NP-KG在鉴定涉及酶，转运蛋白和药物的药代动力学相互作用的应用。我们设想NP-KG将有助于改善人机合作，以指导研究人员将来对药代动力学NPDIS进行研究。 NP-KG框架可在https://doi.org/10.5281/zenodo.6814507和https://github.com/sanyabt/np-kg上公开获得。

translated by 谷歌翻译

Visual Transformer for Soil Classification

Aaryan Jagetia , Umang Goenka , Priyadarshini Kumari , Mary Samuel

分类：计算机视觉

2022-09-07

我们的粮食安全建立在土壤的基础上。如果土壤不健康，农民将无法用纤维，食物和燃料喂养我们。准确预测土壤的类型有助于规划土壤的使用，从而提高生产率。这项研究采用了最先进的视觉变压器，并与SVM，Alexnet，Resnet和CNN等不同模型进行了比较。此外，这项研究还着重于区分不同的视觉变压器体系结构。对于土壤类型的分类，数据集由4种不同类型的土壤样品组成，例如冲积，红色，黑色和粘土。 Visual Transformer模型在测试和测试时达到98.13％的训练和93.62％的范围，在测试和训练精度方面都优于其他模型。视觉变压器的性能超过了其他模型的性能至少2％。因此，新颖的视觉变压器可用于计算机视觉任务，包括土壤分类。

translated by 谷歌翻译

Fraud Detection Using Optimized Machine Learning Tools Under Imbalance Classes

Mary Isangediok , Kelum Gajamannage

分类：机器学习

2022-09-04

由于欺诈模式随着时间的流逝而变化，并且欺诈示例的可用性有限，以学习这种复杂的模式，因此欺诈检测是一项具有挑战性的任务。因此，借助智能版本的机器学习（ML）工具的欺诈检测对于确保安全至关重要。欺诈检测是主要的ML分类任务；但是，相应的ML工具的最佳性能取决于最佳的超参数值的使用。此外，在不平衡类中的分类非常具有挑战性，因为它在少数群体中导致绩效差，大多数ML分类技术都忽略了。因此，我们研究了四种最先进的ML技术，即逻辑回归，决策树，随机森林和极端梯度提升，它们适用于处理不平衡类别以最大程度地提高精度并同时降低假阳性。首先，这些分类器经过两个原始基准测试不平衡检测数据集的培训，即网站网站URL和欺诈性信用卡交易。然后，通过实现采样框架，即RandomundSampler，Smote和Smoteenn，为每个原始数据集生产了三个合成平衡的数据集。使用RandomzedSearchCV方法揭示了所有16个实验的最佳超参数。使用两个基准性能指标比较了欺诈检测中16种方法的有效性，即接收器操作特性（AUC ROC）和精度和召回曲线下的面积（AUC PR）（AUC PR）。对于网络钓鱼网站URL和信用卡欺诈事务数据集，结果表明，对原始数据的极端梯度提升显示了不平衡数据集中值得信赖的性能，并以AUC ROC和AUC PR来超越其他三种方法。

translated by 谷歌翻译

Unifying Evaluation of Machine Learning Safety Monitors

Joris Guerin , Raul Sena Ferreira , Kevin Delmas , Jérémie Guiochet

分类：机器学习 | 人工智能 | 计算机视觉 | 机器人

2022-08-31

随着机器学习（ML）在关键自主系统中的越来越多的使用，已经开发出运行时监视器来检测预测错误并使系统在操作过程中保持安全状态。已经提出了针对涉及各种感知任务和ML模型的不同应用，并将监视器进行了监视，并将特定的评估程序和指标用于不同的环境。本文介绍了三个统一面向安全的指标，代表了监视器的安全益处（安全增益），使用后的剩余安全差距（残留危险）以及对系统性能（可用性成本）的负面影响。要计算这些指标，需要定义两个返回功能，代表给定的ML预测如何影响预期的未来奖励和危害。三个用例（分类，无人机登陆和自动驾驶）用于证明如何根据建议的指标来表示文献的指标。这些示例的实验结果表明，不同的评估选择如何影响监视器的感知性能。由于我们的形式主义要求我们制定明确的安全假设，因此它使我们能够确保进行评估与高级系统要求符合。

translated by 谷歌翻译

Machine learning meets false discovery rate

Ariane Marandon , Lihua Lei , David Mary , Etienne Roquain

分类： (统计)机器学习

2022-08-13

经典的错误发现率（FDR）控制程序提供了强大而可解释的保证，而它们通常缺乏灵活性。另一方面，最近的机器学习分类算法是基于随机森林（RF）或神经网络（NN）的算法，具有出色的实践表现，但缺乏解释和理论保证。在本文中，我们通过引入新的自适应新颖性检测程序（称为Adadetect）来使这两个相遇。它将多个测试文献的最新作品范围扩展到高维度的范围，尤其是Yang等人的范围。（2021）。显示ADADETECT既可以强烈控制FDR，又具有在特定意义上模仿甲骨文之一的力量。理论结果，几个基准数据集上的数值实验以及对天体物理数据的应用，我们的方法的兴趣和有效性得到了证明。特别是，虽然可以将AdadEtect与任何分类器结合使用，但它在带有RF的现实世界数据集以及带有NN的图像上特别有效。

translated by 谷歌翻译

Conv-NILM-Net, a causal and multi-appliance model for energy source separation

Mohamed Alami C. , Jérémie Decock , Rim Kaddah , Jesse Read

分类：机器学习

2022-08-03

非侵入性负载监控（NILM）试图通过从单个骨料测量中估算单个设备功率使用来节省能源。深度神经网络在尝试解决尼尔姆问题方面变得越来越流行。但是，大多数使用的模型用于负载识别，而不是在线源分离。在源分离模型中，大多数使用单任务学习方法，其中神经网络专门为每个设备培训。该策略在计算上是昂贵的，并且忽略了多个电器可以同时活跃的事实和它们之间的依赖性。其余模型不是因果关系，这对于实时应用很重要。受语音分离模型Convtas-Net的启发，我们提出了Conv-Nilm-Net，这是端到端尼尔姆的完全卷积框架。 Conv-NILM-NET是多元设备源分离的因果模型。我们的模型在两个真实数据集和英国销售的两个真实数据集上进行了测试，并且显然超过了最新技术的状态，同时保持尺寸明显小于竞争模型。

translated by 谷歌翻译